為了因應明天會用到的組件,所以先來科普一下大家拉~
它是透過階層架構的方式,將資料一層層地反覆進行分裂或者聚合,來產生最後的樹狀結構,然而,常見的方式有聚合式階層和分裂式階層分群法,這兩種分群法。
聚合式階層分群法
經由樹狀結構的底部,將資料或分群一次次合併。起初,每一筆資料,它會視為一個群聚,如果有 N 筆資料,則可看成 N 個群聚,並且依照演算法形成聚合樹。
四個主要流程之步驟:
1. 計算樣本間各個點的距離
2. 再將距離最接近的一群合成起來,變成新的樣本組合
3. 重複1和2的步驟,一直到所有的樣本變成一群,則可停止
4. 根據距離來切割它們,決定了最終聚在一起的群數
分裂式階層分群法
由樹狀結構的頂端開始,逐漸地分裂分群。起初,會將所有的資料視成一個群聚,並依照演算法形成分裂樹。
因在實作上聚合方式較容易操作,所以底下為聚合方式的介紹,而在聚合時,需要定義兩個群聚的距離,這裡有 4 種常用的群聚距離之定義。
好哩~今天就先吸收知識到這邊拉,敬請期待明日,將會運用到它喔!bye~
參考資料:
[機器學習首部曲] 層次聚類 Hierarchical Clustering
AI - Ch19 機器學習(7), 分群/聚類:階層式分群法 Clustering: Hierarchical Clustering
階層分群 (Hierarchical Clustering)